不是超能力,而是科技力!安全稳健的神经调控疗法帮助瘫痪患者实现自由站立!《追AI的人》第22期直播回放

Original AAIG 阿里巴巴人工智能治理研究中心 2023-11-28

收录于合集 #追AI的人 80个

直播回顾

《追AI的人》系列直播第22期邀请了清华大学副教授眭亚楠老师分享《AI助力瘫痪患者恢复站立和行走》。

以下为直播的文字回放，共计6533字。
直播简介回顾：
AI助力瘫痪患者恢复站立和行走!有温度的人工智能《追AI的人》第22期来咯！

眭亚楠

清华大学副教授，被加州理工学院的Yisong Yue教授称赞为“现代的具有文艺复兴风格的研究者。”致力于机器学习、神经调控、及先进计算技术的医学应用研究。研究成果作为独立专题写入斯坦福大学等高校教科书Algorithms for Optimization，多次担任国际人工智能顶级会议领域主席。

分享大纲

1. 强化学习与神经交互

2. 人类运动-神经系统建模
3. 机器学习优化神经界面设计
4. 安全稳健的强化学习方法
5. 瘫痪患者的运动功能重建
6. 结语展望

首先简单介绍强化学习和神经交互，这两个学科之间存在深刻的联系。之后将介绍我们在人类运动神经系统建模方面的工作，在处理越来越复杂的问题时，模型可以帮助我们简化计算或提高优化效率，因此我们需要进行运动神经系统的建模工作。

在此基础上，我们将探讨如何通过机器学习方法，特别是在线学习方法来优化神经界面的设计。传统上，我们依靠工程师、医生或神经科学家的经验来进行这些设计，但是现在可以通过机器学习方法来对这些设计进行系统性的优化，以获得可能更优的临床效果。

在神经界面设备植入到患者体内后，我们需要考虑如何构建安全稳健的强化学习方法，以更好地获得神经调控或神经交互的控制参数。在第五部分内容中，将系统地介绍如何一步步实现对于瘫痪患者的运动功能重建。第六部分将简要回顾我们的工作及重要合作者。

强化学习与神经交互🧑‍🦽

强化学习是人工智能领域的前沿研究领域，今天我们将关注其在技术层面上的挑战。在仿真和离线训练的环境中，只要有好的数字化的仿真环境，强化学习就能够表现出类人甚至超人的行为。例如，AlphaGo和AlphaZero等在虚拟世界中表现出非常出色的能力。强化学习的方法也被应用于语言模型的能力提升中，从人的反馈中学习到有用的信息来构建人工智能系统。这些都是在仿真或者纯数字化的环境中发生的。

但是，当将强化学习或者先进的控制方法应用于现实世界，特别是物理世界，仍然有很多问题需要解决。例如，医疗、驾驶等过程自动化的实现仍有很大的距离，其中一个重要的制约因素是安全性。因此，安全高效的在线学习与控制，目前是人工智能研究的一个重要核心问题。

物理现实场景中，犯错的代价太高了。例如，2016年的双足机器人挑战赛中，即使采用了先进的学习和控制方法，仍然会面临很多问题。自2016年以来，已经取得了很多进展，例如Boston Dynamics为代表的足式机器人的演进。但是，在现实世界中，这些系统的安全和效率仍然存在很多问题。

这些物理系统需要在连续决策过程中的每一步做出安全的决策，否则整个系统可能会受到严重影响。因此，现实世界中的强化学习和仿真虚拟世界的强化学习之间存在很大的差距。尽管通过仿真到现实（Sim2Real）的技术可以在某种程度上缓解这种差距，但有些问题并不容易解决。在航空和机器人等高价值应用中，以及在神经交互系统中，如何构建一个安全、稳健、可持续和可信赖的学习系统是非常重要的。

上图介绍了我们研究神经交互的一个例子。通过脊髓硬膜外植入多触点刺激电极阵列，针对脊髓损伤瘫痪患者的特定部位，施以合适的神经刺激，使这些患者能够站立和行走。右侧展示的是我们在开篇就期望实现的目标，即让因车祸或高空坠落等原因而完全瘫痪的患者重新站立和行走。

人类运动-神经系统建模🧑‍🦽

接下来，将逐步讲解在系统方法框架下，如何实现人类运动神经系统建模。

本环节关注的是运动功能和运动问题。我们需要对神经肌肉骨骼系统进行联合建模和多物理场仿真，以在数字场景下构建具有相应物理真实性的模型。

在六个蓝色的图中，可以看到人类脊髓的切面。通过神经影像和人工处理，可以对其进行脊髓神经系统的重建。我们可以看到这个模型的形状非常不规则，左右也不对称，有的地方大，有的地方小。

将这些切片组合在一起，我们可以得到一段竖着的人类脊髓模型。在模型上，我们可以增加电极阵列，用于神经交互和调控。另一侧是人的骨骼肌肉系统的动力学仿真，通过这些仿真和数字模型的构建，在一定程度上化解现实物理世界中的不确定性，从而加速临床应用。

首先，将基于解剖统计数据构建平均脊髓模型，并在此基础上进行脊髓神经活动的计算。为什么要根据解剖统计数据构建平均脊髓模型呢？因为每个人的身高、体重和外貌都不同，自然而然，我们的内脏和神经系统也都不同。因此，我们需要将这些个体差异进行统计和平均，以便更好地理解人类脊髓的特征。

左边的图展现了脊髓内不同下肢肌肉群运动的神经根或神经段的分布。通过这个模型，我们可以设置人工电极触点，并在上面加入相应的电刺激来刺激神经根。虽然个性化模型的对称性和其他因素会有所不同，但是平均的人类脊髓模型的对称性和规整性较好。并且平均的模型就可以告诉我们很多信息，例如在特定参数下，刺激电极在脊髓内以及分出来的神经根上的刺激效果。这个模型可以通过模拟逼近实际效果。如果不使用建模的方式，这些数据在生理实验中几乎无法测量。

在活体动物上进行这些实验存在很大差异，而且我们也无法在人体上进行没有特定边界条件的实验。然而，通过仿真计算，可以计算出哪些区域被激活，哪些可能没有被激活。因此，当我们在某个区域放置电极并进行电刺激时，可以预测电极能否起到一定的效果。

通过模型，我们可以在仿真世界中生成电刺激，并根据电刺激进行有限元仿真。仿真可以告诉我们整个目标空间的电场分布。根据电场分布，特定位置的神经元会产生怎样的电活动和神经响应？通过仿真建立定量、半定量的桥梁，我们能计算不同神经刺激和调控参数对神经系统的影响和选择性，优化实验和预期结果。脊髓平均模型可以帮助我们计算目标肌肉的刺激选择性，为建立神经刺激和肌肉活动的映射关系提供参考。

#3 机器学习优化神经界面设计🧑‍🦽

在脊髓神经系统建模基础上，将空间中的目标位置设置成电极触点，可以实现对电极形态的设计和迭代优化。我们采用贝叶斯优化的方法改进脊髓电刺激电极的空间排布位置。

在线优化是一种逐步选点的优化过程，通过逐步采样来找到目标函数上的最优解。在贝叶斯优化中，每次选点都根据一个特定的采样函数来判断下一个采样点的位置，以最大化目标函数的值。这种方法可以用于优化电极设计，通过优化电极位置、排布和尺寸等参数来实现对神经组织的刺激效果的优化。

在电极设计中，不同的采样点对应不同的电极空间形式，我们可以通过一个目标函数来定义刺激效果，并通过贝叶斯优化来找到最优的电极设计方案。优化的维度可以包括电极之间的距离、横向和纵向的排布。

触点数目的增加可以提高空间选择性和刺激多样性。例如，32通道电极的空间选择性比现有的若干电极更好。它的触点是一个上疏下密的结构，这也是符合我们人类脊髓神经系统的生理结构。

在进行脊髓神经调控时，在将优化后的电极植入患者体内后，仍然会面临许多问题。这是因为我们所面临的参数空间巨大，电极也是基于平均模型构建的，而每个人的脊髓都不同，因此我们需要采用个性化的调控策略。

此外，我们还需要考虑安全和风险相关的问题。因此，如何实现一个更加安全高效的对参数进行搜索的过程，是我们需要解决的一个重要问题。我们以好的电极设计作为基础，并使用有效的方法来实现安全有效的神经刺激控制策略的选择。

安全稳健的强化学习方法🧑‍🦽

在接下来我们将重点讨论安全稳健的强化学习方法。在线强化学习本身难以保证其安全性。经典教科书《强化学习》（Sutton & Barto）表达了强化学习是一个试错与改进相结合的迭代优化过程。但如果在这个过程中存在未知的安全风险，那么每一步都要求安全性将导致试错过程的中断，进而无法实现充分的迭代优化。在线强化学习是一种基于试错改进不断迭代的方法，但是存在未知安全风险会破坏这个基本结构，导致强化学习无法有效执行。

安全稳健的强化学习方法需要解决的核心问题就是如何应对未知安全风险破坏基本结构的情况。构建安全在线强化学习的基本架构需要调整原本的基本结构，以适应新的未知安全风险。需要从数学和形式上定义未知安全风险和约束，并在决策过程中更新对安全约束的认知。通过在线学习来扩展对安全边界的认识，并实现优化。更进一步构建有理论保证的在线安全学习方法。

扫雷游戏是一个安全优化的例子。我们构建安全优化方法，通过后验概率确定安全区间来保证采样的安全，同时有效拓展安全边界，实现有效的优化。关于具体的安全强化学习方法，感兴趣的读者可以查阅相关书籍《Algorithms for Optimization》第16章第6节有详细介绍。

在线安全优化的核心是一个约束优化问题。在回应之前提出的问题时，我们需要构建一个安全的在线强化学习基本架构。这个新的结构结合了安全扩张探索和利用的因素，与传统的探索和利用相结合的过程不同。探索和利用始终在已知的安全区域中进行，并包括对安全边界的探索。我们通过高斯过程或再生核希尔伯特空间来描述未知的安全约束函数，并在决策过程中更新对安全约束的认识。

我们利用置信区间最大化信息来平衡安全扩张、探索和利用这三个安全强化学习的核心要素，从而实现安全高效的在线学习和优化过程。

在理论分析方面，我们可以利用再生核希尔伯特空间范数约束和集中不等式约束，证明特定算法的安全性和有效性。

瘫痪患者的运动功能重建🧑‍🦽

今天的报告聚焦在如何在巨大未知的空间中安全高效地进行系统优化上。在特定的问题和应用领域中，我们可以找到更多的约束条件和更好的建模方式，从而能够更有效率地针对这些问题进行优化。这也是为什么专用人工智能比通用人工智能更容易实现的原因。这种逻辑同样适用于如何使用神经-肌肉-骨骼动力系统进行建模与仿真。

以一个真实的临床实验为例，说明如何在线优化重建完全瘫痪患者的站立能力。

在这个实验中，患者完全瘫痪，如果不进行刺激，他无法支撑自己站立。在优化的前期阶段，他的站立效果可能较差。但是通过逐步优化，最终达到了一个比较好的站立状态。在这种状态下，他已经能够靠自己的神经骨骼肌肉系统来支撑自己的体重，但仍需要外部支架的帮助来实现一部分平衡功能。平衡问题对这些患者来说一直是一个难题，但至少他们已经能够靠自己的能力站起来并实现一些基本功能。

在实践中，强化学习是一个循环过程，其中包括状态空间和参数空间。状态空间可以描述人站立的情况和运动情况等，而参数空间则包含可能的刺激参数。在之前的临床实验中，我们使用了16个电极来进行刺激，并通过在线强化学习的方式来收集反馈，以实现更有效、稳健和舒适的站立过程。我们在此基础上还进行了高位截瘫患者手部抓握功能恢复的实验。

强化学习中的状态空间在实际世界中应该类比于人的自由运动状态，而不只是站立。当我们允许状态空间进行扩增时，强化学习问题的复杂度会显著提升，这要求我们考虑更加高效的处理高维刺激空间的算法。

我们提出了一类方法称为Optimistic Latent Space Safe Optimization（OLSSO），这是一种乐观的安全优化方法，它在表征空间或影空间中实现对包围刺激参数的空间进行个性化安全优化。它可以融合物理先验的自编码器对刺激空间进行降维，从而在编码空间中进行有效的乐观安全优化。我们采用新设计的32通道的电极，需要通过降低输入空间维度以降低优化复杂度。通过允许少量错误或小风险的事件发生来显著提高优化效率，因此称之为乐观安全优化。

融合物理知识和真实临床实验数据来设计自编码器，使其能够有效地降低刺激参数空间的维度，并在低维空间中实现更有效的乐观安全优化算法。自编码器基于三种损失函数构建，以实现从高维数据到低维表征再到高维重建的设计。

在降维到的低维空间中，我们可以实现更高效的乐观的安全优化算法。

从机器学习方法验证的角度出发，我们需要模拟脊髓神经模型并结合肌肉骨骼模型，以建立一个良好的运动模型系统的包络。通过模拟这些肌肉的活动，可以确保我们测量到的肌肉可以模拟行走和奔跑的基本要求。

进一步在仿真模型中验证OLSSO算法的优化性能，和现有方法相比，可以达到更高的优化效率，同时保证高概率的安全性。

基于数字脊髓模型，我们将算法优化的结果与与常用的刺激模式进行比较，发现算法可以实现更高的刺激选择性和优化效能。与历史数据结果对比，我们的算法可以在相对较短的时间内快速达到高优化效果。

以上是Optimistic Latent Space Safe Optimization的仿真实验。我们在临床实验中的目标是优化截瘫患者的下肢运动功能。反馈方式包括传感器测量值、对人建模分析的计算值和人工对患者状态的评估。

我们的第一个优化目标是对下肢肌肉运动的选择性控制，作为实现自主站立和行动前置条件。实验目标是使激活的肌肉发力效果和效应尽可能强，并尽量减少其他相关肌肉的活动。

在临床实验中，我们优化了目标肌肉的表现，能够实现相对快速、安全、稳健的优化效果。算法能够评估实际的目标函数，并在较短步数之后达到对肌肉的选择性刺激。

在此基础上，我们研究了算法是否能够帮助患者实现有效的自主站立。我们发现，算法能够达到临床人员的调控表现，也能够自动找到对患者有效的参数。右侧的两个参数比较表明，算法与人类专家找到的最佳参数有相似之处，但也存在不同之处。算法能够找到更多的阴极（蓝色）触点，电场的均匀程度将更强，可能会使站立更舒适、更长期可用。

在此基础上，我们将优化后的参数用于行走控制过程中，根据患者真实的运动捕捉参数进行建模，并展示了步态周期内行走过程以及患者腿部肌肉活动的多周期数据。优化后的控制参数呈现为行走控制参数的一部分。

如上图，看到的是一位患者在康复训练并经过算法优化后实现的自主行走。这位患者在车祸后完全下肢瘫痪，无法主动控制下肢的任何肌肉。但是，在刺激器开启并设置适当的刺激调控参数后，他能够有效地控制自己下肢的运动，实现行走。

总结🧑‍🦽

本次内容围绕神经建模、电极设计、算法优化和疗法实验。

这是一个大团队的工作，我们的团队带头人是清华大学神经调控国家工程研究中心主任李路明教授。在此向所有参与这项工作的临床医生、工程师，以及我的学生们致以感谢，我们一起参与并实现了今天报告中所述的算法系统和实验。

直播预告

往期精彩推荐点击标题查看文章● 两大看点大揭秘!《人工智能治理与可持续发展实践白皮书》

● AAIG成立一周年!砥砺前行,谱写新时代的科技之歌~请查收这份最新的自我介绍

● 月刊｜AI治理必修第26刊|GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?

● 听委员说｜AAIG薛晖出席杭州市"两会",提出加快建立人工智能产业的多元协同治理机制

● ChatGPT会替代哪些人工?它带来怎样的科技革命?如何避免滥用ChatGPT?《追AI的人》第21期直播回放

● “算法偏见”是概念炒作吗?「这个AI不太冷」第3期带你揭秘现实AI!